查看原文
其他

怎样建设一个好的云管平台?这份来自保险行业的设计重点请收好 | 最佳实践

twt社区 twt企业IT社区 2024-02-18

【摘要】做为直面用户的窗口,云管平台给用户感受是最为直接的,云管平台的设计好坏与否,直接影响着用户的使用体验和效率,本文就云管平台建设过程中的一些思考和经验与大家进行分享。

【作者】rruigg,某大型保险云平台架构师,在云计算方向的领域具有丰富的经验,主要负责云平台的架构规划工作。 


一、前言

随云计算技术近年来的应用场景越来越多,云计算相关技术也逐渐成熟,平台的服务能力和种类越来越完善,基于分布式架构技术的IT 技术在运营规模、技术能力、客户体验等方面表现出超越传统企业级IT的能力。传统企业及IT厂商也在加速在云计算领域的布局和转型,在分布式技术体系的标准化、产品化和云运维服务体系化等各个层面大力投入,持续推出企业级云计算产品并不断完善配套的技术支撑能力。

国家不断出台信息化建设相关的各种政策和指导意见中都提到了云计算的建设要求和标准,大力推动政府和各企业利用云计算技术提高生产效率并进行业务创新。中国银保监会更是在2018年发布了《中国保险业发展“十三五”规划纲要》,纲要明确指出:要积极推动云计算、大数据在保险行业的创新应用,加快数据采集、整合和应用分析。但保险业上云对于安全、可靠和合规的要求极高。在企业IT架构从单体架构向分布式架构转变过程中,如何在提升效率的同时有效控制新技术引入带来的风险,成为摆在所有保险企业面前的一道难题。做为直面用户的窗口,云管平台给用户感受是最为直接的,云管平台的设计好坏与否,直接影响着用户的使用体验和效率,本文就云管平台建设过程中的一些思考和经验与大家进行一些分享。


二、云管平台的定义

众所周知云是分层的。目前大家公认的云架构是划分为基础设施即服务层(IaaS)、平台即服务层(PaaS)和软件即服务层(SaaS)三个层次。这三个层次的组件实现的是对资源的管理和服务化,更多的是贴近于资源侧,不具有业务属性、流程管理、计量计费等内容,也称之为云平台。云管平台则是用户使用云平台的入口,它天生附带企业独有的业务特征和行业属性。资源的管理、风险的管控、IT资产管理,以及企业的组织架构都是云管平台得以成功构建并持续运行的基本元素。本文和大家分享的是云管平台的建设经验,并不涉及云平台的思考和构建细节。

云管平台(Cloud Management Platform,简称CMP)最早是由Gartner提出的企业云战略中一种产品形态。为了更好地管理资源,Gartner对云环境进行了分层定义(见图1):


图 1

  • 云基础架构层(Cloud Infrastructure),通过云平台来协调管理包括网络、虚拟化、物理服务器、安全等资源在内的底层基础设施,并抽象成api形式向外暴露,便于其他软件或模块进行调用和集成 。云基础架构层又可以进一步细分成两个部分:

    1、 基础资源层:包括各种计算、网络,存储等基础设施,比如:虚拟化引擎、SDN、SDS 等,处于这一部分的的产品和组件提供了云平台及云服务的实际承载载体,是云计算体系中提供应用程序运行的基础环境支撑。

    2、云平台层:即我们通常所熟知的OpenStack、CloudStack、VMWarevSphere、AWS、Azure等。云平台向下管理各类云计算资源,使得IT基础设施以一种统一的、标准的API形式对外暴露,向上形成可编程的接口提供标准化可编程能力,屏蔽底层差异,实现软硬件解耦,使用户可以灵活的对资源和服务进行管理、申请和使用。

  • 云管理平台(CMP)层:CMP作为云计算平台的最顶层,它面对的是包括开发人员、IT运维人员、架构人员,甚至财务人员、运营管理人员等最终用户。用户在 CMP上依据自身被赋予的权限进行资源的申请、回收、调整、审批等资源生命周期的管理工作。同时用户通过CMP统一进行资源的管理工作,也使得资源的分配情况通过CMP进行汇总和计量,为企业运营管理提供数据参考。


三、云管平台的建设方式选择

私有云通常有两种建设方式:一种为公有云私有化部署,阿里专有云即属于这种;另外一种即通过OpenStack构建。由于OpenStack的投入成本相对较低,相对公有云来说,OpenStack更加灵活,易于定制,更适合依据企业特点量身打造个性化云平台。对于公有云私有化部署方式,公有云厂商已经提供了一套完整的云管理平台,用户可以开箱即用或者做少量的定制开发即可满足需求。而通过OpenStack进行构建的私有云,就需要用户自行考虑如何构建或者购买第三方的专业云管产品。

原生的OpenStack已经提供了Horizon组件,一个Dashboard图形界面工具,可以提供极其有限的资源管理。OpenStack的Horizon并不是完整意义上的CMP,其有限的功能对企业级云平台而言是不完备的,作为OpenStack的Dashboard项目,它还缺少很多核心功能。OpenStack社区也推荐采用专用性强的Cloud Management Tools纳管云平台,这是被OpenStack官方所认可的管理OpenStack的标准方法之一。所以,企业通常选择通过全新开发方式或者选择专业的云管产品来构建自己的云管平台。


四、云管平台在设计时需要关注的重点

从传统IT到云计算模式,企业IT的管理模式需要从“运行管理”向“服务运营”进行转变。转变的过程可能是纠结而痛苦的,但是IT部门不得不直面现实。当业务创新的速度开始倒逼IT服务的响应能力时,研发和测试人员对IT资源与应用的持续交付效率、质量的要求越来越高。随着业务的持续发展,企业IT的规模也逐渐膨胀,运维工作量随着设备的增加而成几何指数增长。IT部门必须从既往的惯性中挣脱出来,逐渐将资源交付、应用上线服务化,从管理者身份向服务运营管理的角色过渡。在这一转变进程中,CMP扮演着“云服务中心”核心能力支撑平台的角色。

云管理平台在云计算的体系结构中,是最贴近用户侧的一层,是用户使用服务和运营管理的入口,其核心作用在于整合基础设施,提供访问控制、服务管理、服务编排以及运营管理。云管平台的设计和实现主要关注在以下几个方面(图2):


图2

  • 整合基础设施。IT的基础架构伴随着企业的发展而逐步演化,不同的场景中会引入不同的技术、形态。一个企业中,广泛存在着大量的不同品牌、不同形态的异构基础设施。在相当长的一段时间内,企业的IT基础环境中可能会同时存在公有云、私有云、传统虚拟化环境,以及传统物理服务器等多种技术形态。为了有效整合这些基础设施,形成标准的、统一的资源管理方式,提供一个一致的用户体验,正是云管平台所要完成的天然使命之一。

  • 多租户管理能力。企业内对于资源的管理,受财务管理模式、资源归属情况、组织架构形态等因素影响,对于资源的使用上存在多层次、多资源隔离的管理要求,比如:集团公司与分子公司之间存在资源归属的区分,资源管理权限上的差异。所以在企业私有云的CMP在建设上需要适配企业组织结构和管理方式,提供与之对应的角色权限对应关系,实现集中的访问控制,并依据管理模式的不同提供从单一租户到多租户支持的能力扩展。

  • 服务编排能力。用户希望获取的是一个灵活、高效的实现服务交付的诉求,而不是一个个独立的技术组件。为了有效的整合不同层级云平台的能力,需要对IaaS、PaaS,甚至SaaS进行服务的编排和整合,按照既定的工作流和依赖关系实现服务按某种顺序组合进行交付。云管理平台为服务编排能力提供了展示的舞台。

  • 服务运营管理。运营的最终目标是将IT基础设施池化,资源抽象化,将资源形成一种标准化服务能力,比如:服务目录就是将资源共性抽象化,形成标准的服务组件,以云计算服务形式对外展现。对于这些服务的运营管理展开来讲,就是将订单管理、流程管理、计量计费、SLA管理等内容进行重新定义,而这些能力在传统ITSM的服务目录中都不具备。

  • 融合外围系统。大多数企业往往经过数年的发展,权鉴管理体系、流程管控体系、监控告警体系、配置管理系统等多种系统已然成形,并渗透到企业IT管理的方方面面。云平台在设计和建设的同时,必然要和这些已经稳定运行的系统进行交互。因此,需要借助云管平台这个渠道,有效融合周边系统,实现IT信息的互通、共享和交互管理,实现信息及数据的收敛。

  • 多云管理能力。在企业的数据中心中,存在着多种应用环境,如:生产环境、开发环境、测试环境、预生产环境、灾备环境等。不同的环境都有着其各自独特的监管要求、管理要求、运维诉求和环境特征,无法纳管到同一套云平台中。生产系统追求的首要目标是稳定性、可靠性,资源利用率并非主要关注点。开发测试环境,变化速度快,资源申请回收频繁,资源利用率和使用的高效灵活在该环境中是一般企业的关注重点。这些差异是企业内部产生多云建设的根本诉求来源之一。另外,任何一种技术都存在着可以支撑的规模上限,伴随着企业不断扩张,数据中心达到一定规模后,必然会产生超出单一云平台所能容纳的计算资源数量,由此企业需要建设多套云平台来满足业务需求。还有些企业根据业务特征,选择部分业务放置在公有云上,部分业务私有化部署,对于这种混合云架构而言,资源维护的一致性是企业IT管理中重要的一环。云管平台正是解决多种云环境(包括混合云环境)管理的利器,CMP向下对接和纳管不同类型IT基础设施、向上支撑传统和云原生应用的能力,同时衔接企业已有的审批流程、监控体系、运维工具,给企业带来全新的创造力,重塑全局视野的管理体验。做为驾驭云计算平台的管理工具,构建CMP是唯一的出路。

  • 容量和成本管理。容量和成本管理对于确保企业数据中心拥有足够的资源和预算来支持不断增长的业务服务至关重要。利用云平台监控体系和其他监控手段,企业可以创建满足各种利益相关者需求的自定义数据视图,对云平台资源使用情况和运行状态进行展示和数据存储,对已经获取到的资源使用情况进行跟踪、分析、预测将有助于防止过度配置、控制和优化运营成本。

  • SLA管理。企业级的云管平台需要具备服务治理的能力,以保证云服务的交付质量。云管平台需要通过基于SLA策略的资源池调度,确保云平台上的各项服务能够实现高可用、高可靠的特性,并且在资源管理过程中符合各项运维和安全方面的规定,并提供审计支持能力。在多云/混合云环境中,这种服务治理能力同时也有助于管理外部云服务供应商的服务交付质量。


五、云管平台建设中的经验分享

云管平台除去做为资源管理平台的入口职能以外,还涉及资源全生命周期管理过程中的相关流程管控,是云平台和企业周边系统的互通通道,也是多种信息的汇聚以及集中的展现的平台。云计算体系是一个复杂的系统工程,在云管平台建设过程中,涉及到企业方方面面的改变,不可避免的需要现有IT管理模式、组织架构、财务管理模式等众多领域或多或少的进行适配和调整,这里就其中几点和大家进行分享:

1)运维及管理流程的变化

云平台建设过程是一个IT环境标准化、自动化的落地过程。云计算技术是通过把公共组件标准化并最终服务化,使其对具体业务部门完全透明,降低运维部门自身的运维成本,同时提高业务部门的开发效率。

在云平台出现以前,企业内部的IT管理方法大多已经成型且已运作多年,相关的资源管理流程、风险管控流程等环节中存在大量的线下流程和非标准流程,和云计算的批量化、自动化、智能化存在一定程度的冲突,并不完全适配。云管平台的建设,对这些既有流程形成了一定冲击,需要进行适当的改变以适配新的资源管理模式。

举例来说:在传统IT组织架构下,数据中心可能会分成网络、系统、存储、应用等不同专业团队,在传统IT环境应用与系统、硬件与软件等不同IT基础设施间界面清晰,专业领域相对来说壁垒分明。云平台是一个技术组件繁多,技术堆栈众多的平台,一个组件的维护很可能就需要涉及到容器、中间件、系统、存储、SDN网络等多个知识领域。这就要求现有运维人员打破壁垒,通力合作,技能做相互融合,由此产生的多个部门或者团队间的融合需求。

另外,近年来企业安全事故频发,金融企业对于系统安全的重视程度是越收越紧,监管要求也是越来越严格,由此导致数据中心的各种审批流程纷繁复杂。金融的强监管模式云平台带来的规模效应在多数企业内无法体现出明显的优势,而IT服务标准化、资源管理自动化则成为多数企业的实际关注重点。为此,在资源生命周期管理过程中,风险管控流程需要进行合理设计,可灵活适配不断变化的监管要求。

2)运维职责边界变得模糊

传统管理模式下的IT,各个团队的边界较清晰,相互的交接界面较为明确。通过云平台打通了IT资源交付渠道的同时,自动化联动的资源交付模式使得各个专业团队的运维边界产生了交叉和模糊。因此,云管平台在设计时,资源的调度和生命周期管理过程中所涉及到的流程、团队职责需要细致调研、谨慎设计,尽可能的推动当前已有的流程和团队分工,包括不同环境(生产、开发、测试)向未来标准化、统一化方向进行演进,短期内应避免在构建平台的同时对现有流程和团队职责产生较大冲击和改变。

3)用户行为的控制

云管平台的建设,通常除了实现统一的资源管理框架以外,多数还带有向用户开放自助服务的能力。但是在云管平台建设之初,就需要考虑清楚如何降低用户的学习成本,可以使其迅速上手的使用产品;告知有价值的信息,减少时间和精力开支;提前预知帮助,愉快的学习使用云计算平台。所有提供的信息需要清晰、易懂、无二义性。同时,对外开放的服务需要从云管平台侧加以足够的信息引导和限制。

在大多数企业中,使用云平台自助服务的用户多数是应用开发或维护人员,对于基础架构方面的知识薄弱。因此,在提供给用户自助使用的服务时所需要提供的要素,需要清晰明确。例如:当云平台中存在多个资源池时,用户在申请资源时就必然要选取恰当的资源池,此时就要求云管平台给与足够的信息,引导用户能够清晰的判断所要使用的资源所处的资源池,否则就会造成用户的困扰。

为了使用户能够更快的做出判断,选择合理的路径实现服务的管理,需要在云管平台中通过某种手段或方法,干预目标对象的决策和发展,促使其更快地接近目标。简单来说,就是需要从用户视角出发,对于信息的接收和选择做出适当的引导和控制。在需要提供某些信息来使用一项服务时,输入元素是否存在限制条件,相关内容是否存在合规检查,这些都是需要仔细设计的。举例来说,当用户申请防火墙规则时,是否可以输入网段而非具体的业务IP地址,是否可以允许用户输入A类、B类网段,对于网络的输入格式是192.168.1.0/24还是192.168.1.0/255.255.255.0等,都是需要从云管平台后台的实现逻辑上予以控制的。


六、结束语

"科技以人为本",是昔日手机巨擘诺基亚的广告词。时过境迁,虽然诺基亚已经辉煌不再,但这句广告词绝对是经典中的经典。科技要有人用才有存在的意义,云计算是一项复杂的IT工程,所以更需要以人为本,从用户视角出发,在云管平台的设计中融入人机交互理念,通过合理的设计和实现让复杂的云平台的变得舒适、简单、自由,充分发挥云计算中各项服务的定位和特点。

原题:保险企业云管平台建设方式选择及设计重点实践经验分享

如有任何问题,可以点击文末阅读原文,到社区原文下提问交流
觉得本文有用,请转发或点击“在看”,让更多同行看到


 资料/文章推荐:


欢迎关注社区 “云管平台”技术主题  ,将会不断更新优质资料、文章。地址:


下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

继续滑动看下一个

怎样建设一个好的云管平台?这份来自保险行业的设计重点请收好 | 最佳实践

twt社区 twt企业IT社区
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存